Recherche de dépendances fonctionnelles et de règles d'association avec OLAP
نویسندگان
چکیده
Dans l’étude des bases de données, il est intéressant de déceler les liens entre les attributs. Pour ça, plusieurs outils sont disponibles. Les Règles d’Association (RA) permettent de savoir quelles valeurs des attributs dépendent d’autres valeurs. Les Dépendances Fonctionnelles (DF) permettent de savoir quels attributs dépendent des autres. Les RA donnent des informations à un niveau de granularité fin, tandis que les DF portent sur la relation complète. Les DF conditionnelles (DFC, Bohannon et al. (2007)) sont un compromis puisqu’elles permettent de trouver des DF sur un sous-ensemble de la relation. Medina et Nourine (2009) ont formalisé une hiérarchie entre les DF et les RA : une DF est l’union de DFC, qui sont elles-mêmes des unions de RA. Les systèmes de recherche de DF, DFC et RA sont pour la plupart basés sur des algorithmes renvoyant la liste des règles avec leurs mesures. Les outils d’On-Line Analytical Processing (OLAP) permettent de structurer et d’analyser des informations multidimentionnelles, sous la forme d’un cube de données. Le cube décrit un ensemble de faits, selon une mesure (la valeur à analyser) et un ensemble de dimensions (les différentes facettes d’étude). De plus, un ensemble de liens de navigation permettent à l’utilisateur de (i) sélectionner une sous-partie du cube, (ii) modifier la granularité d’une dimension et (iii) supprimer une dimension d’étude. Traditionnellement, la mesure est numérique, ce qui permet de synthétiser les mesures des celulles, grâce à une fonction d’agrégation (somme, moyenne. . .). Dans cet article, nous appliquons les concepts d’OLAP à une relation comportant des valeurs quelconques. Pour ça, nous proposons une méthode qui utilise la structure du cube OLAP et ses opérateurs de navigation, mais en gardant la mesure non synthétisée. Nous montrons que cette utilisation particulière d’OLAP implique que les RA, DFC et DF apparaissent visuellement et directement dans le cube. La première étape est la projection d’une relation sur un cube de données OLAP. Un cube OLAP est défini par (i) une famille de n dimensions (Di)i∈1..n, chaque dimension correspondant à un attribut de la relation, et (ii) une mesure M correspondant à un attribut de la relation. Le domaine de chaque dimension D et de la mesure est défini par l’ensemble des valeurs possibles de l’attribut correspondant de la relation. Chaque cellule (d1, . . . , dn) de la projection contient le multi-ensemble des valeurs m, pour les tuples de la relation tels que (D1 = d1),
منابع مشابه
Notion de sémantiques bien-formées pour les règles
Résumé. La notion de règles entre attributs est très générale, allant des règles d’association en fouille de données aux dépendances fonctionnelles (DF) en bases de données. Malgré cette diversité, la syntaxe des règles est toujours la même, seule leur sémantique diffère. Pour une sémantique donnée, en fonction des propriétés induites, des techniques algorithmiques sont mises en oeuvre pour déc...
متن کاملDécouverte des dépendances fonctionnelles conditionnelles fréquentes
Résumé. Les Dépendances Fonctionnelles Conditionnelles (DFC) ont été introduites en 2007 pour le nettoyage des données. Elles peuvent être considérées comme une unification de Dépendances Fonctionnelles (DF) classiques et de Règles d’Association (RA) puisqu’elles permettent de spécifier des dépendances mixant des attributs et des couples de la forme attribut/valeur. Dans cet article, nous trait...
متن کاملLe rôle de l'utilisateur dans un processus d'extraction de règles d'association
Résumé. De nombreux travaux ont porté sur l'extraction de règles d'association. Cependant, cette tâche continue à intéresser les chercheurs en fouille de données car elle soulève encore plusieurs défis. En particulier, son utilisation en pratique reste difficile : d'une part, le nombre de règles apprises est souvent très grand, d'autre part, le traitement des valeurs numériques dans cette tâche...
متن کاملRègles d'Association Triadiques pour la recommandation et l'enrichissement de requêtes décisionnelles
Résumé. Cet article décrit un nouveau processus de personnalisation de requêtes décisionnelles à travers une nouvelle approche d’extraction de règles d’association triadiques. Ce processus exploite les fichiers log des utilisateurs et comporte cinq étapes : (1) génération d’un contexte triadique à partir des fichiers log de requêtes d’un serveur d’analyse OLAP ; (2) passage d’un contexte triadi...
متن کاملInteraction et Visualisation avec des liens de dépendances
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کامل